智能论文笔记

A generative recommender system with GMM prior for cancer drug generation and sensitivity prediction

Krzysztof Koras , Marcin Możejko , Paulina Szymczak , Eike Staub , Ewa Szczurek

分类：机器学习 | 人工智能

2022-06-07

高通量药物筛查测定法的最新出现引发了机器学习方法的密集开发，包括预测癌细胞系对抗癌药物的敏感性的模型，以及用于生成潜在药物候选者的方法。然而，尚未全面探索具有特定特性的化合物产生具有特定特性和同时建模其功效的概念。为了满足这一需求，我们提出了Vadeers，这是一种基于各种自动编码器的药物功效估算推荐系统。化合物的产生是由具有半监视的高斯混合模型（GMM）的新型自动编码器进行的。先验定义了在潜在空间中的聚类，其中簇与特定的药物特性相关联。此外，Vadeers配备了单元线自动编码器和灵敏度预测网络。该模型结合了抗癌药物的微笑弦表示的数据，它们对蛋白激酶的抑制作用，细胞系生物学特征以及细胞系对药物的敏感性的测量。评估的Vadeers变体在真实和预测的药物敏感性估计之间达到了较高的R = 0.87 Pearson相关性。我们以一种方式训练GMM先验，使潜在空间中的簇通过其抑制作用对应于药物的预计聚类。我们表明，学到的潜在表示和新生成的数据点准确地反映了给定的聚类。总而言之，Vadeers提供了一种全面的药物和细胞系特性模型及其之间的关系，以及引导的新型化合物。

translated by 谷歌翻译

Simulating first-order phase transition with hierarchical autoregressive networks

Piotr Białas , Paulina Czarnota , Piotr Korcyl , Tomasz Stebel

分类： (统计)机器学习

2022-12-09

We apply the Hierarchical Autoregressive Neural (HAN) network sampling algorithm to the two-dimensional $Q$-state Potts model and perform simulations around the phase transition at $Q=12$. We quantify the performance of the approach in the vicinity of the first-order phase transition and compare it with that of the Wolff cluster algorithm. We find a significant improvement as far as the statistical uncertainty is concerned at a similar numerical effort. In order to efficiently train large neural networks we introduce the technique of pre-training. It allows to train some neural networks using smaller system sizes and then employing them as starting configurations for larger system sizes. This is possible due to the recursive construction of our hierarchical approach. Our results serve as a demonstration of the performance of the hierarchical approach for systems exhibiting bimodal distributions. Additionally, we provide estimates of the free energy and entropy in the vicinity of the phase transition with statistical uncertainties of the order of $10^{-7}$ for the former and $10^{-3}$ for the latter based on a statistics of $10^6$ configurations.

translated by 谷歌翻译

A Comparison of Reinforcement Learning Frameworks for Software Testing Tasks

Paulina Stevia Nouwou Mindom , Amin Nikanjam , Foutse Khomh

分类：机器学习

2022-08-25

软件测试活动旨在找到软件产品的可能缺陷，并确保该产品满足其预期要求。一些软件测试接近的方法缺乏自动化或部分自动化，这增加了测试时间和整体软件测试成本。最近，增强学习（RL）已成功地用于复杂的测试任务中，例如游戏测试，回归测试和测试案例优先级，以自动化该过程并提供持续的适应。从业者可以通过从头开始实现RL算法或使用RL框架来使用RL。开发人员已广泛使用这些框架来解决包括软件测试在内的各个领域中的问题。但是，据我们所知，尚无研究从经验上评估RL框架中实用算法的有效性和性能。在本文中，我们凭经验研究了精心选择的RL算法在两个重要的软件测试任务上的应用：在连续集成（CI）和游戏测试的上下文中测试案例的优先级。对于游戏测试任务，我们在简单游戏上进行实验，并使用RL算法探索游戏以检测错误。结果表明，一些选定的RL框架，例如Tensorforce优于文献的最新方法。为了确定测试用例的优先级，我们在CI环境上运行实验，其中使用来自不同框架的RL算法来对测试用例进行排名。我们的结果表明，在某些情况下，预实算算法之间的性能差异很大，激励了进一步的研究。此外，建议对希望选择RL框架的研究人员进行一些基准问题的经验评估，以确保RL算法按预期执行。

translated by 谷歌翻译

NECE: Narrative Event Chain Extraction Toolkit

Guangxuan Xu , Paulina Toro Isaza , Moshi Li , Akintoye Oloko , Bingsheng Yao , Aminat Adebeyi , Yufang Hou , Nanyun Peng , Dakuo Wang

分类：人工智能 | 自然语言处理

2022-08-17

NECE是一个基于事件的文本分析工具包，用于叙事文档。NECE的目的是通过图形界面和Python软件包为用户提供开放且轻松地访问基于事件的摘要和长期叙事文档的抽象，这些软件包可以很容易地用于叙事分析，理解或其他高级目的。我们的工作解决了长期通过事件提取和关键事件的时间顺序的挑战；同时，它提供了选择和查看与叙述实体有关的事件（例如主要角色和性别群体）的选项。我们进行人类评估以证明事件链提取系统的质量，并且角色具有挖掘算法。最后，我们通过证明其在性别偏见分析和提问任务中的用法来阐明该工具包的潜在下游应用程序。

translated by 谷歌翻译

A review on longitudinal data analysis with random forest in precision medicine

Jianchang Hu , Silke Szymczak

分类： (统计)机器学习 | 机器学习

2022-08-08

Precision Medicine根据患者的特征为患者提供定制的治疗方法，是提高治疗效率的一种有希望的方法。大规模的OMICS数据对于患者表征很有用，但是它们的测量经常会随着时间而变化，从而导致纵向数据。随机森林是用于构建预测模型的最先进的机器学习方法之一，并且可以在精密医学中发挥关键作用。在本文中，我们回顾了标准随机森林方法的扩展，以进行纵向数据分析。扩展方法根据其设计的数据结构进行分类。我们考虑单变量和多变量响应，并根据时间效应是否相关，进一步对重复测量进行分类。还提供了审查扩展程序的可用软件实现信息。最后，我们讨论了我们审查的局限性和一些未来的研究指示。

translated by 谷歌翻译

Untargeted Region of Interest Selection for GC-MS Data using a Pseudo F-Ratio Moving Window ($ψ$FRMV)

Ryland T. Giebelhaus , Michael D. Sorochan Armstrong , A. Paulina de la Mata , James J. Harynuk

分类： (统计)机器学习 | 机器学习

2022-07-30

与分析气相色谱法 - 质谱（GC -MS）数据相关的挑战很多。这些挑战中的许多挑战源于以下事实：电子电离可能使由于高度的分裂程度与分子离子信号的损失而难以恢复分子信息。使用GC-MS数据，通常在密切洗脱峰之间共享许多常见的片段离子，因此需要进行复杂的分析方法。其中一些方法是完全自动化的，但是对数据可以在分析过程中引入伪影的数据做出了一些假设。化学计量方法（例如多元曲线分辨率或平行因子分析）特别有吸引力，因为它们是灵活的，并且对数据的假设相对较少 - 理想情况下会导致伪像较少。这些方法确实需要专家用户干预来确定每个区域的最相关区域和适当数量的组件，即$ k $。需要选择自动化区域，以允许使用高级信号反卷积的色谱数据自动批处理处理。在这里，我们提出了一种新的方法，用于自动化，不靶心的感兴趣的选择区域，该方法是根据平方的比率和第二个单数值分解的比率来解释GC-MS数据中存在的多元信息，以选择感兴趣的区域。在色谱图上移动的窗口。假设第一个奇异值主要解释了信号，而第二个奇异值主要解释了噪声，则可以将这两个值之间的关系解释为Fisher比率的概率分布。通过研究该算法不再挑选已知包含信号的色谱区的浓度来测试算法的灵敏度。

translated by 谷歌翻译

Lightweight Conditional Model Extrapolation for Streaming Data under Class-Prior Shift

Paulina Tomaszewska , Christoph H. Lampert

分类：机器学习

2022-06-10

我们介绍了Limes，这是一种通过非平稳流数据学习的新方法，灵感来自元学习的最新成功。主要想法不是尝试学习一个单个分类器，该分类器必须在所有发生的数据分布中都能很好地工作，也不是许多单独的分类器，而是要利用混合策略：我们学习一组模型参数任何特定的数据分布都是通过分类器适应得出的。假设有一个具有类优点偏移的多类分类设置，则可以在分析中进行适应步骤，仅在分类器的偏差术语中受到影响。我们工作的另一个贡献是外推步骤，该步骤可以根据先前的数据预测未来时间步骤的合适适应参数。结合起来，我们获得了一个轻巧的过程，可以从具有不同的类分布的流数据中学习，与训练单个模型相比，没有增加可训练的参数，几乎没有内存或计算开销。使用Twitter数据对一组示例性任务进行的实验表明，Limes的精度比替代方法更高，尤其是在最低的当今精度的相关现实世界中。

translated by 谷歌翻译

On Assessing The Safety of Reinforcement Learning algorithms Using Formal Methods

Paulina Stevia Nouwou Mindom , Amin Nikanjam , Foutse Khomh , John Mullins

分类：机器学习

2021-11-08

在自动车辆，健康和航空等安全关键系统领域中越来越多的加强学习引发了确保其安全的必要性。现有的安全机制，如对抗性训练，对抗性检测和强大的学习并不总是适应代理部署的所有干扰。这些干扰包括移动的对手，其行为可能无法预测的代理人，并且作为对其学习有害的事实问题。确保关键系统的安全性也需要提供正式保障对扰动环境中的代理人的行为的正式保障。因此，有必要提出适应代理人面临的学习挑战的新解决方案。在本文中，首先，我们通过提出移动对手，产生对代理人政策中的缺陷的对抗性代理人。其次，我们使用奖励塑造和修改的Q学习算法作为防御机制，在面临对抗扰动时改善代理人的政策。最后，采用概率模型检查来评估两种机制的有效性。我们在离散网格世界进行了实验，其中一个面临非学习和学习对手的单一代理人。我们的结果表明，代理商与对手之间的碰撞次数减少。概率模型检查提供了关于对普遍环境中的代理安全性的较低和上部概率范围。

translated by 谷歌翻译

How to Certify Machine Learning Based Safety-critical Systems? A Systematic Literature Review

Florian Tambon , Gabriel Laberge , Le An , Amin Nikanjam , Paulina Stevia Nouwou Mindom , Yann Pequignot , Foutse Khomh , Giulio Antoniol , Ettore Merlo , François Laviolette

分类：机器学习

2021-07-26

背景信息：在过去几年中，机器学习（ML）一直是许多创新的核心。然而，包括在所谓的“安全关键”系统中，例如汽车或航空的系统已经被证明是非常具有挑战性的，因为ML的范式转变为ML带来完全改变传统认证方法。目的：本文旨在阐明与ML为基础的安全关键系统认证有关的挑战，以及文献中提出的解决方案，以解决它们，回答问题的问题如何证明基于机器学习的安全关键系统？'方法：我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述（SLR），涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题，被认为是ML认证的主要支柱：鲁棒性，不确定性，解释性，验证，安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题，并提取了提取的论文的总结。结果：单反结果突出了社区对该主题的热情，以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系，以加深域名研究。最后，它还说明了必须在上面提到的主要支柱之间建立连接的必要性，这些主要柱主要主要研究。结论：我们强调了目前部署的努力，以实现ML基于ML的软件系统，并讨论了一些未来的研究方向。

translated by 谷歌翻译